@Adam Karvonen

mentions 1 type Person feed RSS

18:34

2026-06-04

lesswrong.com

artificial-intelligence

Building Better Activation Oracles

Researchers have improved Activation Oracles (AOs)—fine-tuned LLMs that answer natural language questions about a target model's internal activations—by training on on-policy rollouts, using a higher-…

// co-occurs with top 7 entities

Neel Nanda 1 Niclas Luick 1 Karvonen et al. 1 MATS 1 Activation Oracle 1 AObench 1 Qwen3-8B-AO-v3 1